学术活动｜讲座纪要步一描述性推断之相关与回归：科学合作有哪些影响因素？

Original 图书情报知识图书情报知识 2022-06-09

供稿｜司湘云

相关分析和回归分析等描述性推断方法是图情档领域常用的研究方法，研究人员获取数据后，如何对数据进行探索式分析？如何根据研究问题和数据分布选择合适的回归模型？分析过程中应注意哪些事项与问题？“面向图情档研究问题的研究方法系列讲座（第二期）”第二讲特邀北京大学步一助理教授开展题为“描述性推断之相关与回归：科学合作有哪些影响因素？”的报告。步一助理教授详细阐述了变量的探索式分析与回归分析的过程与注意事项，并结合具体研究案例展示数据分析过程。

1 变量的探索式分析

1.1 一个变量的探索式分析

一个变量的分析，主要关注变量的描述性统计与分布。描述性统计量包括最大值、最小值、众数、平均值、中位数及其他百分位数等。除了对称分布外，变量常服从偏态分布，因此不能仅使用平均值来代表样本的情况。

描述变量分布最直观的方式是表格或者直方图，多个直方图进行比较分析时应注意图形横轴的数值范围和刻度；密度分布和累积分布也是常用的分布图形。绘制密度分布图时应注意分箱、纵轴的含义、横纵轴的尺度等问题，以更好地刻画变量分布态势。变量呈现长尾效应时，密度分布有时不能很好地展现数据特征，累积分布或互补累积分布图（CDF或CCDF）则是更合适的呈现方式。与密度分布图相比，累积分布图或互补累积分布图更平滑，数据抖动更少，如下图。此外，应格外关注变量的特殊点的分析，例如特殊点是否具有不同的性质、对于模型是否有影响等。

1.2 两个或两个以上变量的探索式分析

观察两个变量之间关系最直观且简单的方法是观察散点图。此外，在图情档领域常使用皮尔逊相关系数和斯皮尔曼相关系数计算变量间相关关系。值得注意的是，相关系数并不是万能的。不同数据分布形态可能会得到同样值的相关系数。因此，仅根据相关系数判断变量间关系可能会忽视变量间的内部关系，所以分析变量间关系时，建议从最直观的散点图开始。此外，可使用珍珠图（bubble plot）、逐一分析两两变量之间关系、回归分析等方法可以分析三个或者多个变量之间的关系。

1.3 案例：多维引文影响力评估指标

科学文献的引文影响力评估指标包括论文被引量、基于引文网络的测度指标（PageRank值、特征因子值等）、基于全文本数据的测度指标（引文出现次数、引文位置、引文内容等），等等。然而这些指标均是从单一维度测量论文影响力，即，使用一个数值表征论文影响力，但是论文影响力的评估应是多维度框架。

本研究构建了三维度的引文影响力评估框架，即除了传统的论文被引量指标（level）外，还包括深度影响力（depth）和依赖性影响力（dependence）指标。下图描绘了相同被引量下两篇中心文献的不同引用深度影响力和依赖性影响力。

本研究首先对水平、深度和依赖性三个变量进行描述性统计分析，并按照学科对数据进行分组后绘制变量累积概率分布图。

其次，分析变量间的关系，例如：①对一个变量进行分组后，观察另一个变量的累积概率分布，示例中分别对水平变量进行分组后分析深度和依赖性变量的累积分布、对深度变量分组后探讨依赖性变量的累积分布；②绘制两两变量的散点图，并进行个案分析和特殊点分析，示例中绘制深度和依赖性变量的散点图，图中两条虚线分别代表两个变量的平均值，然后选择代表性节点和特殊点进行深度解读；③绘制三个变量的珍珠图，并进行个案分析和特殊点分析，示例中节点直径与其被引量正相关，两条虚线表示深度和依赖性变量的平均值，星型节点表示待分析的个案节点或特殊点。

2 回归分析

在相关分析中，两个变量（x和y）往往处于相等或相似的地位，即x和y的相关关系等同于y与x的相关关系，而在回归分析中，变量y（因变量）往往处于“被解释”的地位，即变量x（自变量）用于解释变量y。

2.1 回归分析中的注意事项

进行回归分析前，需要考虑回归模型、研究问题与数据现状是否吻合，应注意变量分布特征的了解、变量间关系的探索、变量特殊点的考察与处理等问题。

回归分析时：①应检验变量的多重共线性，计算效应量以理解变量组间差异的大小，注意遗漏变量、样本选择性偏差、双向因果关系等内生性问题，等等；②如何选择合适的回归模型？常根据因变量的先验分布选择相应的回归模型，例如因变量或者因变量的对数形式服从或近似服从正态分布时可选择OLS回归模型，因变量为计数变量时可选择泊松回归模型、负二项回归模型或对应的零膨胀模型等。

解释与展示回归分析结果时：①不应将相关关系阐释为因果关系；②在论文写作时应避免某些带有因果属性的词语，例如“导致/使得（result in）”“影响（influence/impact/affect）”“促进（lead to）”等词语，而应使用“有关/相关”“正（负）相关”“正（反）比于”“正（反）方向增加/减少”等词语；③回归模型结果不显著时，可以从模型中变量是否存在多重共线性、数据集或数据采集方法是否存在选择性偏差、数据的形态是否需要重构、是否有相关理论支持回归结果的显著性等角度进行思考并修正模型；④零模型/空模型（null model）问题，在图情档领域从数据结果中得出结论时，常需要建立零模型并将其作为基线（baseline）进行对比分析以保证研究结论的鲁棒性和稳定性。

2.2 案例：科学合作的形成与什么因素有关？

合著网络常被用于研究学者合作行为，然而已有研究鲜少探究合作特征与科学合作之间的关系。网络通常具有同质性（Homophily）、传递性（Transitivity）和偏好连接性（Preferential attachment）等特征，那么在科学合著网络场景下，具有某一相似属性的学者是否更容易进行科学合作？通过已有合作者，学者是否更易建立新的合作关系？与很多学者合作的学者，是否更容易吸引新的合作者？

本研究采集WOS数据库信息检索领域1956-2014年发表的学术论文集合，选择发文量最高的500位作者构建合著网络，探讨节点同质性、网络传递性和偏好连接性与科学合作之间的关系。

本研究采用指数随机图模型（ERGMs）进行回归分析，回归模型考虑了节点层面的效应（包括节点属性的主效应与同质性效应）和网络结构效应（包括网络密度、传递性和偏好连接性三个网络特征）。节点属性包括发文量、被引量、研究领域和性别四个维度，其中发文量包括作者的独著论文数量、合著且第一作者论文数量和合著非第一作者论文数量三个不同的指标。节点属性的主效应及其同质性效应、节点传递性和偏好连接性特征计算公式如下图：

最终的回归方程如下图：

回归分析结果如下，其中与模型Ⅰ相比，模型Ⅱ纳入了网络传递性和偏好连接性两个变量：

参与学术直播活动的2700余名观众积极提问，问题主要包括：如何判断应该采用何种回归模型，选择性偏差对于回归模型结果的影响以及如何避免选择性偏差，如何处理分组回归与整体回归结果显著性不一致的情况，研究结果的泛化与回归分析结果越来越依赖于p值的问题，如何度量合作者的技能特征等。步一助理教授一一详细解答，并分享了科研工作过程中的研究心得和建议。

【论文出处】 Zhang, C., Bu, Y., Ding, Y., & Xu, J. (2018). Understanding scientific collaboration: Homophily, transitivity, and preferential attachment. Journal of the Association for Information Science and Technology, 69(1), 72-86.

讲座回放入口：

讲座版权归主办方所有，仅供个人学习，严禁任何形式的录制、传播。一经发现将依法保留追究权。

制版编辑姚志臻

END

学术活动 | 2020图书情报青年学者国际论坛（三）(10.8，线上参会)

学术活动｜今晚七点半！2020图书情报青年学者国际论坛（二）(线上参会)

学术活动｜讲座纪要刘晓钟数据/图挖掘：如何避免身处信息孤岛中？

学术活动 | 2020图书情报青年学者国际论坛（一）(9.17，线上参会)

学术活动 | 2020图书情报青年学者国际论坛（线上会议，9.17日起）